4.1 Neyman的置信区间理论

#ConfidenceInterval #OrderStatistics #UMA #HypothesisTesting #UMAU

用样本生成的 $\hat{g} (X)$ 来估计未知参数 $g (θ)$ , 是我们在点估计就讨论了的问题, 但是单个值我们没办法知道它的精度有多大. 一个方法是指出一个误差限 $d (X)$ , 把估计写成区间 $[\hat{g} (X) - d (X), \hat{g} (X) + d (X)]$ , 更一般地, $[A (X), B (X)]$ .
为了书写简单, 我们假定 $g (θ)$ 就是 $θ$ . 它们没有本质区别.

1 置信水平置信系数

设 $X$ 是样本, $[θ_{1} (X), θ_{2} (X)]$ 是 $θ$ 的区间估计. 由于 $θ$ 未知和 $X$ 随机, 我们不能保证 $θ \in [θ_{1} (X), θ_{2} (X)]$ , 只能以一定的概率保证它. 由此引出

置信水平置信区间置信系数

如果对任意 $θ \in Θ$ , $P_{θ} (θ_{1} (X) \leq θ \leq θ_{2} (X)) \geq 1 - α,$ 则称 $[θ_{1} (X), θ_{2} (X)]$ 有置信水平 $1 - α$ , 或 $[θ_{1} (X), θ_{2} (X)]$ 是 $θ$ 置信水平 $1 - α$ 的置信区间.
一切置信水平中的最大值为置信系数, 也即 $inf {P_{θ} (θ_{1} (X) \leq θ \leq θ_{2} (X)) | θ \in Θ}$ .

置信上界置信下界

设 $\overset{―}{θ} (X)$ 是 $θ$ 的一个上界估计, $0 \leq α < 1$ . 若 $\forall θ \in Θ$ , $P_{θ} (θ \leq \overset{―}{θ} (X)) \geq 1 - α$ , 则 $\overset{―}{θ} (X)$ 是 $θ$ 的置信水平 $1 - α$ 的置信上界.
类似有 $\underset{―}{θ} (X)$ , $P_{θ} (\underset{―}{θ} (X) \leq θ) \geq 1 - α$ , 则是置信下界.

对 $k$ 维参数的情况 ( $k \geq 1$ ), 可以定义区域估计, 即由样本 $X$ 决定的区域 $S (X) \subset R^{k}$ . 也即一旦有了样本 $X$ , 可以把 $θ$ 估计在 $S (X)$ 内; $S (X)$ 一般有规则的形状, 同样可以定义置信水平、置信系数.

2 置信区间的构造

2.1 通过点估计构造置信区间

X_{1}, \dots, X_{n} \overset{i . i . d}{\sim} Exp (λ)

. (参考指数分布). 给定

α

, 找出

λ

的

1 - α

水平的置信区间、置信上下界.

根据这个例子, $\overset{―}{X} = \frac{1}{n} \sum_{i = 1}^{n} X_{i}$ 是 $\frac{1}{λ}$ 的无偏估计、UMVUE. 根据 $\sum_{i = 1}^{n} X_{i}$ 的概率密度公式 (2.4), 和 $χ^{2}$ 分布的密度 (3.1), 有 $2 λ n \overset{―}{X} \sim χ_{2 n}^{2}$ . 于是；若有 $0 < a < b < \infty$ 满足 $P (a \leq χ_{2 n}^{2} \leq b) = 1 - α$ , 则有 $P_{λ} (\frac{a}{n \overset{―}{X}} \leq λ \leq \frac{b}{n \overset{―}{X}}) = 1 - α, \forall λ > 0.$ 由此, $[\frac{a}{n \overset{―}{X}}, \frac{b}{n \overset{―}{X}}]$ 就是 $λ$ 的置信系数 $1 - α$ 的置信区间. 可以取 $a = χ_{2 n}^{2} (1 - \frac{α}{2}), b = χ_{2 n}^{2} (\frac{α}{2}) .$ 类似地, 由 $P (χ_{2 n}^{2} \geq χ_{2 n}^{2} (1 - α)) = P (χ_{2 n}^{2} \leq χ_{2 n}^{2} (α)) = 1 - α,$ 分别得出 $λ$ 的置信系数 $1 - α$ 的置信下、上界分别为 $\frac{χ_{2 n}^{2} (1 - α)}{2 n \overset{―}{X}}$ , $\frac{χ_{2 n}^{2} (α)}{2 n \overset{―}{X}}$ .

X_{1}, \dots, X_{n} \sim Uniform (0, θ)

θ > 0

. 找

θ

的置信系数

1 - α

的置信区间和置信上、下界.

记 $T = max (X_{1}, \dots, X_{n})$ , 则根据这个例子, $\frac{n + 1}{n} T$ 是 $θ$ 的 UMVUE. 因此设法去找通过 $T$ 表出的区间估计. 因为 $\frac{X_{1}}{θ} \sim Uniform (0, 1)$ , 知 $\frac{T}{θ}$ 有密度函数 $n x^{n - 1}$ ( $0 < x < 1$ , 其他为 $0$ ). 于是, 若找 $c_{1}, c_{2}$ ( $0 < c_{1} < c_{2} \leq 1$ ) 满足条件 $1 - α = \int_{c_{1}}^{c_{2}} n x^{n - 1} d x = c_{2}^{n} - c_{1}^{n},$ 则有 $P_{θ} (c_{1} \leq \frac{T}{θ} \leq c_{2}) = P_{θ} (\frac{T}{c_{2}} \leq θ \leq \frac{T}{c_{1}}) = 1 - α .$ 于是 $[\frac{T}{c_{2}}, \frac{T}{c_{1}}]$ 为 $θ$ 的一个置信系数 $1 - α$ 的置信区间.
接下来确定 $c_{1}, c_{2}$ 满足前面条件且区间长度尽可能短, 则可以取 $c_{1} = α^{\frac{1}{n}}, c_{2} = 1$ .

对于有些分布确切结果难以计算, 我们可以用极限分布来近似.

- \infty < x < \infty

- \infty < θ < \infty

. 对

θ

进行区间估计.

记样本中位数为 $m_{n}$ , 则 $m_{n} - θ$ 与 $θ = 0$ 时 Cauchy 分布中 $n$ 个样本的中位数的分布相同, 因此这个分布的密度函数 $f_{n} (x)$ 与 $θ$ 无关.
当 $n$ 为奇数, 根据这个公式可以直接写出来; $n$ 为偶数的时候要稍微讨论一下.
找到 $f_{n} (x)$ 后, 找 $c > 0$ , 使 $\int_{- c}^{c} f_{n} (x) d x = 1 - α \Rightarrow P_{θ} (| m_{n} - θ | \leq c) = 1 - α,$ 由此得出 $[m_{n} - c, m_{n} + c]$ .
根据这个结果, $\sqrt{n} (m_{n} - θ) \overset{d}{\to} N (0, \frac{π^{2}}{4})$ . 因此 $c \approx \frac{π u_{\frac{α}{2}}}{2 \sqrt{n}}$ .

X \sim Binom (n, p)

. 求

p

的区间估计.

取 $T = \frac{X - n p}{\sqrt{n p q}}$ ( $q = 1 - p$ ). 当 $n \to \infty$ , $T \to N (0, 1)$ . 因此 $P_{p} (| T | \leq u_{\frac{α}{2}}) \approx 1 - α$ . 这等价于 $P_{p} (c_{1} \leq p \leq c_{2}) \approx 1 - α$ , 不难解出 $c_{1}, c_{2} = \frac{n}{n + λ^{2}} (p^{*} + \frac{λ^{2}}{2 n} \pm λ \sqrt{\frac{p^{*} q^{*}}{n} + \frac{λ^{2}}{4 n^{2}}}),$ 这里 $p^{*} = \frac{X}{n}$ , $q^{*} = 1 - p^{*}$ , $u_{\frac{α}{2}} = λ$ .

2.2 通过假设检验构造置信区间

考虑检验问题 $H_{0} : θ = θ_{0} \leftrightarrow H_{1} : θ \neq θ_{0} .$ 找出一个检验, 水平为 $α$ . 设它有接受域 $A_{θ_{0}}$ , 则 $P_{θ_{0}} (X \in A_{θ_{0}}) \geq 1 - α . (θ_{0} \in Θ)$
如果 ${X \in A_{θ_{0}}}$ 可以等价写成 ${θ_{1} (X) \leq θ_{0} \leq θ_{2} (X)}$ , 则 $P_{θ} (θ_{1} (X) \leq θ \leq θ_{2} (X)) \geq 1 - α, θ \in Θ .$ (这里 $θ_{0}$ 改写成 $θ$ . ) 如果检验真实水平为 $α$ , 则上式改为等号, 则 $[θ_{1} (X), θ_{2} (X)]$ 有置信系数 $1 - α$ .

对于单边问题, 参考下面的例子.

X_{1}, \dots, X_{n} \sim N (a, σ^{2})

a, σ

未知. 求

a, σ^{2}

置信系数为

1 - α

的置信区间、置信上下界.

先考虑 $a$ . 根据一样本t检验, 接受域为 ${\frac{| \sqrt{n} (\overset{―}{X} - a_{0} |)}{S} \leq t_{n - 1} (\frac{α}{2})}$ . 此处 $\overset{―}{X}, S^{2}$ 分别为样本均值、样本方差. 改写为 $\overset{―}{X} - t_{n - 1} (\frac{α}{2}) \frac{S}{\sqrt{n}} \leq a_{0} \leq \overset{―}{X} + t_{n - 1} (\frac{α}{2}) \frac{S}{\sqrt{n}} .$ 根据前面的讨论, $[\overset{―}{X} - t_{n - 1} (\frac{α}{2}) \frac{S}{\sqrt{n}} \leq a_{0} \leq \overset{―}{X} + t_{n - 1} (\frac{α}{2}) \frac{S}{\sqrt{n}}]$ 是 $a$ 的一个置信系数 $1 - α$ 的置信区间, 它是一样本 t 区间估计.

对于 $a$ 的置信下界, 考虑检验 $H : a \leq a_{0}$ . 此时接受域为 ${\frac{\sqrt{n} (\overset{―}{X} - a_{0})}{S} \leq t_{n - 1} (α)}$ . 改写为 ${a_{0} \geq \overset{―}{X} - \frac{t_{n - 1} (α) S}{\sqrt{n}}}$ . 于是 $P_{a_{0}, σ} (a_{0} \geq \overset{―}{X} - \frac{t_{n - 1} (α) S}{\sqrt{n}}) = P_{a_{0}, σ} (\frac{\sqrt{n} (\overset{―}{X} - a_{0})}{S} \leq t_{n - 1} (α)) = 1 - α .$ 改 $a_{0}$ 为 $a$ , 则 $\overset{―}{X} - \frac{t_{n - 1} (α) S}{\sqrt{n}}$ 是 $a$ 的置信系数 $1 - α$ 的置信下界. 同样对于 $H : a \geq a_{0}$ , 得到置信上界 $\overset{―}{X} + \frac{t_{n - 1} (α) S}{\sqrt{n}}$ .

对于 $σ^{2}$ , 考虑 $σ^{2} = σ_{0}^{2}$ , $σ^{2} \geq σ_{0}^{2}$ 和 $σ^{2} \leq σ_{0}^{2}$ 的检验, 根据正态分布方差的检验, 接受域分别为 $\begin{aligned} {χ_{n - 1}^{2} (1 - \frac{α}{2}) \leq \frac{(n - 1) S^{2}}{σ_{0}^{2}} \leq χ_{n - 1}^{2} (\frac{α}{2})}, \\ {\frac{(n - 1) S^{2}}{σ_{0}^{2}} \geq χ_{n - 1}^{2} (1 - α)}, \\ {\frac{(n - 1) S^{2}}{σ_{0}^{2}} \leq χ_{n - 1}^{2} (α)}, \end{aligned}$ 由此得到置信区间、置信上下界分别为 $\begin{aligned} [\frac{(n - 1) S^{2}}{χ_{n - 1}^{2} (\frac{α}{2})}, \frac{(n - 1) S^{2}}{χ_{n - 1}^{2} (1 - \frac{α}{2})}], \\ \frac{(n - 1) S^{2}}{χ_{n - 1}^{2} (1 - α)}, \\ \frac{(n - 1) S^{2}}{χ_{n - 1}^{2} (α)} . \end{aligned}$

X_{1}, \dots, X_{m} \sim N (a, σ^{2})

Y_{1}, \dots, Y_{n} \sim N (b, σ^{2})

, 且合样本

X_{1}, \dots, X_{m}, Y_{1}, \dots, Y_{n}

相互独立. 令

θ = b - a

, 找

θ

的置信系数

1 - α

的置信区间和上下界.

根据两样本t检验, 记 $S^{*} = \sqrt{\frac{1}{m + n - 2} (\sum_{i = 1}^{m} (X_{i} - \overset{―}{X})^{2} + \sum_{j = 1}^{n} (Y_{j} - \overset{―}{Y})^{2})},$ 得到 $\begin{aligned} [(\overset{―}{Y} - \overset{―}{X}) - t_{m + n - 2} (\frac{α}{2}) \sqrt{\frac{m + n}{m n}} S^{*}, (\overset{―}{Y} - \overset{―}{X}) + t_{m + n - 2} (\frac{α}{2}) \sqrt{\frac{m + n}{m n}} S^{*}], \\ (\overset{―}{Y} - \overset{―}{X}) + t_{m + n - 2} (α) \sqrt{\frac{m + n}{m n}} S^{*}, \\ (\overset{―}{Y} - \overset{―}{X}) - t_{m + n - 2} (α) \sqrt{\frac{m + n}{m n}} S^{*} . \end{aligned}$

反过来, 如果我们得到了 $[θ_{1} (X), θ_{2} (X)]$ , 则对给定的 $θ_{0}$ , 不难给出一个水平 $α$ 的检验, 例如以 ${x | θ_{0} \in [θ_{1} (x), θ_{2} (x)]}$ 为拒绝域. 所以区间估计和假设检验有着很密切的联系.

区间估计会让我们估计的精度和可靠性一目了然. 例如虽然我们否定了 $a = 0$ , 但如果给出 $[0.01, 0.03]$ 的置信区间, 那可见 $a$ 总体还是很小的, 虽然统计意义上拒绝了 $a = 0$ , 但它依然是个小的数, 这就和 $[- 50, - 40]$ 产生了区别.

3 区间估计的优良性准则

一个好的区间需要满足

可靠度: 包含 $θ$ 的概率有多大;
精度: 长度越小越好.

这两个目标显然是相互排斥的, 我们之前的 Neyman 理论给定置信水平的情况下去找精度更高的区间估计.
不过长度并不能很好描述精度, 比如说对置信上下界就不适用.
设 $\underset{―}{θ} (X)$ 为 $θ$ 的 $1 - α$ 水平的置信下界, 则 $\underset{―}{θ} (X)$ 越大, 就越精确. 换言之, 对 $\forall θ^{'} < θ$ , $P_{θ} (\underset{―}{θ} (X) \leq θ^{'})$ 尽可能小; 类似地对 $\overset{―}{θ} (X)$ , 对 $\forall θ^{'} > θ$ , $P_{θ} (\overset{―}{θ} (X) \geq θ^{'})$ 要尽可能小.
这导出了下面的定义.

一致最精确

称 ${\overset{―}{θ}}^{*} (X), {\underset{―}{θ}}^{*} (X)$ , $[θ_{1}^{*} (X), θ_{2}^{*} (X)]$ 是 $θ$ 的 $1 - α$ 水平的一致最精确置信上下界/置信区间 (UMA, Uniformly Most Accurate), 如果

$\forall 1 - α$ 水平的置信上界 $\overset{―}{θ} (X)$ , 以及 $\forall θ < θ^{'}$ , 有 $P_{θ} ({\overset{―}{θ}}^{*} (X) \geq θ^{'}) \leq P_{θ} (\overset{―}{θ} (X) \geq θ^{'}) .$
$\forall 1 - α$ 水平的置信上界 $\underset{―}{θ} (X)$ , 以及 $\forall θ > θ^{'}$ , 有 $P_{θ} ({\underset{―}{θ}}^{*} (X) \leq θ^{'}) \leq P_{θ} (\underset{―}{θ} (X) \leq θ^{'}) .$
$\forall 1 - α$ 水平的置信区间 $[θ_{1} (X), θ_{2} (X)]$ , 以及 $\forall θ \neq θ^{'}$ , 有 $P_{θ} (θ_{1}^{*} (X) \leq θ^{'} \leq θ_{2}^{*} (X)) \leq P_{θ} (θ_{1} (X) \leq θ^{'} \leq θ_{2} (X)) .$

定理 3.1

对于前面提到的检验, 它是 UMP检验; 得到的置信区间/上下界是 UMA 置信区间/上下界.

证明

以置信下界为例. 设 ${X \in A^{*} (θ_{0})}$ 为 $θ \leq θ_{0} \leftrightarrow θ > θ_{0}$ 的水平 $α$ 的 UMP 检验, 产生的置信下界为 ${\underset{―}{θ}}^{*} (X)$ . 前面指出它有置信水平 $1 - α$ .
如果有另一个置信下界 $\underset{―}{θ} (X)$ 和置信水平 $1 - α$ , 在上述检验问题中有接受域 ${x | \underset{―}{θ} (x) \leq θ_{0}}$ , 水平为 $α$ .
若原假设成立，即 $θ \leq θ_{0}$ , 则 $P_{θ} (接受原假设) = P_{θ} (\underset{―}{θ} (X) \leq θ_{0}) \geq P_{θ} (\underset{―}{θ} (X) \leq θ) \geq 1 - α,$ 这证明它有水平 $α$ . 但按照 UMP检验的定义, $\forall θ_{1} > θ_{0}$ , 有 $P_{θ_{1}} (X \in A^{*} (θ_{0})) \leq P_{θ_{1}} (\underset{―}{θ} (X) > θ_{0}),$ 但 ${X \in A^{*} (θ_{0})} = {{\underset{―}{θ}}^{*} (X) \leq θ_{0}} \Rightarrow P_{θ_{1}} ({\underset{―}{θ}}^{*} (X) \leq θ_{0}) \leq P_{θ_{1}} (\underset{―}{θ} (X) \leq θ_{0}),$ 这对 $\forall θ_{1} > θ_{0}$ 成立. 改 $θ_{1} \to θ$ , $θ_{0} \to θ^{'}$ , 得 $P_{θ} ({\underset{―}{θ}}^{*} (X) \leq θ^{'}) \leq P_{θ} (\underset{―}{θ} (X) \leq θ^{'}), \forall θ^{'} < θ,$ 从而 ${\underset{―}{θ}}^{*} (X)$ 为 UMA 置信下界. 证毕.

UMA 的存在依赖于 UMP. 结合定理, 对指数型分布族而言, 单边假设的 UMP 检验存在, 这样可以找到 UMA 置信界.

X_{1}, \dots, X_{n} \sim N (θ, 1)

θ \leq θ_{0} \leftrightarrow θ > θ_{0}

我们知道它的水平 $α$ 的 UMP 检验存在, 有接受域 ${\sqrt{n} (\overset{―}{X} - θ_{0}) \leq u_{α}}$ . 相应于 $θ$ 的置信下界 $\overset{―}{X} - \frac{u_{α}}{\sqrt{n}}$ . 根据上述定理, 这是 $θ$ 的 $1 - α$ 水平的 UMA 置信下界. 同理有 $\overset{―}{X} + \frac{u_{α}}{\sqrt{n}}$ 置信上界.

对于双边问题 $θ = θ_{0} \leftrightarrow θ \neq θ_{0}$ , UMP 几乎总不存在, 所以 UMA 也几乎总不存在, 即使是指数型分布族也是. 因此上述定理的"置信区间"的部分基本就是虚设的. 为了放宽, 引入无偏置信区间/界的概念.

无偏置信区间/上下界

$[θ_{1} (X), θ_{2} (X)]$ , $\overset{―}{θ} (X), \underset{―}{θ} (X)$ 分别为 $θ$ 的无偏置信区间/上下界, 如果

$\forall θ^{'}$ 和 $θ^{″} \neq θ^{‴}$ , 总有 $P_{θ^{'}} (θ_{1} (X) \leq θ^{'} \leq θ_{2} (X)) \geq P_{θ^{″}} (θ_{1} (X) \leq θ^{‴} \leq θ_{2} (X)) .$
$\forall θ^{'}$ 和 $θ^{″} < θ^{‴}$ , 总有 $P_{θ^{'}} (\overset{―}{θ} (X) \geq θ^{'}) \geq P_{θ^{″}} (\overset{―}{θ} (X) \geq θ^{‴}) .$
$\forall θ^{'}$ 和 $θ^{″} > θ^{‴}$ , 总有 $P_{θ^{'}} (\underset{―}{θ} (X) \leq θ^{'}) \geq P_{θ^{″}} (\underset{―}{θ} (X) \leq θ^{‴}) .$

这里的思想和 UMPU 一致. 在此基础上自然导出一致最精确的无偏置信区间/上下界 (UMAU).

定理 3.2

基于定理3.1 一样的检验, 若所用检验为无偏的, 则置信区间/上下界也无偏; 若所用检验是 UMPU, 则所得置信区间/上下界也是 UMAU.

例子

$X_{1}, \dots, X_{n} \sim N (a, σ^{2})$ , $a, σ$ 未知. 根据这个例子, 它们是 UMAU 的, 因为一样本 t 检验是 UMPU 的.
同样地对这个例子, 也是 UMAU. 再根据正态分布方差的无偏检验, 去构造 $σ, \frac{σ_{1}^{2}}{σ_{2}^{2}}$ , 则都是 UMAU.

4 序贯区间估计

这里的动机和序贯概率比检验一致.
设 $X_{1}, \dots, X_{n} \sim N (a, σ^{2})$ , $a, σ$ 未知, 要做均值 $a$ 的区间估计. 给定置信系数 $1 - α$ . 回顾 t区间估计, 区间长度为 $\frac{2}{\sqrt{n}} S t_{n - 1} (\frac{α}{2})$ . 如果固定 $n$ , 则 $S = \sqrt{\frac{1}{n - 1} \sum_{i = 1}^{n} (X_{i} - \overset{―}{X})^{2}}$ 可以取任意大的值, 区间长都可能无界, 无论 $n$ 取多大.

C. Stein 提出了一种两阶段抽样法, 构造出了这样性质的区间: 当 $σ$ 已知, $\exists l$ , $\forall n$ , 区间长度 $\leq l$ . 他的想法是: 当 $σ$ 已知, 只要 $n \geq {(\frac{2 σ u_{\frac{α}{2}}}{l})}^{2}$ . 当 $σ$ 未知, 在第一阶段抽样来估计 $σ^{2}$ , 来预估 $n$ , 再在第二阶段抽样补齐.

引理 1

设 $m \in N$ , $σ^{2} > 0$ 为常数, $S^{2}, Y$ 为随机变量, 满足条件

$\frac{m S^{2}}{σ^{2}} \sim χ_{m}^{2}$ .
给定 $S = s$ , $Y \sim N (0, \frac{σ^{2}}{s^{2}})$ .

则 $Y \sim t_{m}$ .

证明

只要用全概率公式 $\begin{matrix} (*) & f_{Y} (y) = \int_{0}^{\infty} f_{Y | S = s} (y) f_{S} (s) d s . \end{matrix}$ 由条件 2, 被积函数第一项为 $\frac{s}{\sqrt{2 π} σ} \exp (- \frac{s^{2} y^{2}}{2 σ^{2}})$ . 又有条件 1 和 $χ_{m}^{2}$ 的密度, $f_{S} (s) = \frac{2 {(\frac{m}{2})}^{\frac{m}{2}} s^{m - 1} \exp (- \frac{m s^{2}}{2 σ^{2}})}{σ^{m} Γ (\frac{m}{2})} . (s > 0)$ ( $s \leq 0$ 时它为 $0$ .) 代入 (*), $Y \sim t_{m}$ .

引理 2

$X_{1}, X_{2} \dots \sim N (a, σ^{2})$ , 给定 $n_{0} \in N$ , 令 ${\overset{―}{X}}_{0} = \frac{1}{n_{0}} \sum_{i = 1}^{n_{0}} X_{i}, S^{2} = \frac{1}{n_{0} - 1} \sum_{i = 1}^{n_{0}} (X_{i} - {\overset{―}{X}}_{0})^{2} .$ 设 $a (t), b (t), n (t)$ 是 $0 < t < \infty$ 上的函数, $a (t) \neq 0, \forall t$ , 而 $n (t) \geq n_{0}$ , 取整数为值. 则 $Y = \frac{\sum_{i = 1}^{n} a_{i} (S) (X_{i} - a)}{S \sqrt{\sum_{i = 1}^{n} a_{i}^{2} (S)}} \sim t_{n_{0} - 1},$ 这里 $a_{i} (S) = {\begin{aligned} a (S), i \leq n_{0}, \\ b (S), i > n_{0} . \end{aligned}$

证明

取 $m = n_{0} - 1$ . 由定理3.1, $\frac{m S^{2}}{σ^{2}} \sim χ_{m}^{2}$ , 故引理 1 的条件 1 满足. 改写 $Y = \underset{Y_{1}}{\underset{⏟}{\frac{n_{0} a (S)}{S \sqrt{\sum_{i = 1}^{n} a_{i}^{2} (S)}} ({\overset{―}{X}}_{0} - a)}} + \underset{Y_{2}}{\underset{⏟}{\frac{b (S)}{S \sqrt{\sum_{i = 1}^{n} a_{i}^{2} (S)}} \sum_{i = n_{0} + 1}^{n (S)} (X_{i} - a)}},$
给定 $S = s$ .
先看 $Y_{1}$ . 根据定理3.1, ${\overset{―}{X}}_{0} ⊥ ⊥ S$ . 故 $Y_{1} | S = s$ 与无条件分布 $\frac{n_{0} a (s) (\overset{―}{X_{0}} - a)}{s \sqrt{\sum_{i = 1}^{n} a_{i}^{2} (s)}}$ 相同, 即 $N (0, \frac{n_{0} σ^{2} a^{2} (s)}{s^{2} \sum_{i = 1}^{n} a_{i}^{2} (s)})$ .
再看 $Y_{2}$ . 因为 $S$ 只与 $X_{1}, \dots, X_{n_{0}}$ 有关, 故 $S$ 与 $X_{n_{0} + 1}, \dots$ 独立, 故 $S = s$ 下 $Y_{1} ⊥ ⊥ Y_{2}$ , 且 $Y_{2} | S = s \sim N (0, \frac{(n (s) - n_{0}) b^{2} (s) σ^{2}}{s^{2} \sum_{i = 1}^{n} a_{i}^{2} (s)}) .$ 由此当 $S = s$ , $Y \sim N (0, \frac{σ^{2}}{s^{2}})$ , 故引理 1 的条件 2 成立. 这样直接由引理 1 得证.

现指定 $c > 0$ 和 $n_{0}$ . 第一阶段抽样 $n_{0}$ 次, 得到 $X_{1}, \dots, X_{n_{0}}$ . 定义 $n (t) = max (n_{0}, [\frac{t^{2}}{c}] + 1), a (t) = b (t) = \frac{1}{n (t)} .$ 若 $n (S) = n_{0}$ , 则抽样到此为止. 若 $n (S) > n_{0}$ , 则第二阶段抽 $n (S) - n_{0}$ 次, 即观察 $X_{n_{0} + 1}, \dots, X_{n (S)}$ . 令 $Y = \frac{\sqrt{n (S)}}{S} (\overset{―}{X} - a), \overset{―}{X} = \frac{1}{n (S)} \sum_{i = 1}^{n (S)} X_{i},$ 则由引理 2, $Y \sim t_{n_{0} - 1}$ . 于是置信区间 $[\overset{―}{X} - \frac{S t_{n_{0} - 1} (\frac{α}{2})}{\sqrt{n (S)}}, \overset{―}{X} + \frac{S t_{n_{0} - 1} (\frac{α}{2})}{\sqrt{n (S)}}]$ 有置信系数 $1 - α$ , 区间长为 $\frac{2 S t_{n_{0} - 1} (\frac{α}{2})}{\sqrt{n (S)}}$ . 根据 $n (t)$ 的定义, $n (S) \geq [\frac{S^{2}}{c}] + 1 \geq \frac{S^{2}}{c}$ , 故上述区间长不超过 $2 \sqrt{c} t_{n_{0} - 1} (\frac{α}{2})$ . 为了让它不超过 $l$ , 只需要 $c = \frac{l^{2}}{4 t_{n_{0} - 1}^{2} (\frac{α}{2})}$ .